培训视频中人类姿势估计的最先进模型需要具有很难获得的注释的数据集。尽管最近已将变压器用于身体姿势序列建模,但相关方法依靠伪地真相来增强目前有限的培训数据可用于学习此类模型。在本文中,我们介绍了Posebert,Posebert是一个通过掩盖建模对3D运动捕获(MOCAP)数据进行全面训练的变压器模块。它是简单,通用和通用的,因为它可以插入任何基于图像的模型的顶部,以在基于视频的模型中使用时间信息。我们展示了Posebert的变体,不同的输入从3D骨骼关键点到全身或仅仅是手(Mano)的3D参数模型的旋转。由于Posebert培训是任务不可知论的,因此该模型可以应用于姿势细化,未来的姿势预测或运动完成等几个任务。我们的实验结果验证了在各种最新姿势估计方法之上添加Posebert始终提高其性能,而其低计算成本使我们能够在实时演示中使用它,以通过A的机器人手使机器人手通过摄像头。可以在https://github.com/naver/posebert上获得测试代码和型号。
translated by 谷歌翻译